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关联 数据 在 学 术 资 源 网 相似 文献 发 现 中 的 


应 用 研究 
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摘要 : [ 目的 ] 利用 关联 数据 的 机 器 可 读 、 语 义 表示 、 关 联 描述 和 网 络 资源 属性 的 优势 ,弥补 学 术 资 源 网 信息 组 
织 的 不 足 , 为 相似 文献 发 现 提供 支持 。[ 方法 ] 采用 潜在 语义 分 析 方 法 计算 学 术 资源 网 发 布 的 文献 的 总 体 相 似 度 ， 


通过 层次 聚 类 方法 确定 相似 度 阔 值 进行 相似 度 筛 选 , 生成 文档 关系 矩阵 , 在 此 基础 上 利用 动态 文档 技术 构造 学 


术 资 源 网 关联 数据 以 支持 关联 文献 语义 检索 。[ 结果 ] 初步 实现 具有 相似 文献 查询 功能 的 学 术 资 源 网 关联 数据 ， 
用 于 便捷 地 获得 与 任何 一 篇 文献 高 度 相 关 的 文献 有 助 于 高 效 地 发 现 相似 文献 。[ 局 限 ] 仅 从 统计 学 角度 实现 学 
术 资 源 网 中 相似 文献 的 发 现 ， 对 于 利用 文档 集 知 识 体系 、 语 义 内 涵 和 组 织 方式 等 进行 深度 的 相似 文献 发 现 有 待 
进一步 研究 。[ 结论 ] 潜在 语义 分 析 方 法 计算 文献 相似 度 可 有 效 发 现 相 似 文档 , 将 相似 文献 关联 记录 在 关联 数据 
中 , 支持 语义 检索 获得 精确 的 相似 文献 , 并 能 够 大 幅 缩减 实时 相似 性 计算 的 延迟 。 


关键 词 : 关联 数据 
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潜在 语义 分 析 学术 资源 网 ”相似 度 
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学 术 资 源 网 是 供 从 事 某 个 领域 科研 工作 的 学 者 们 
发 表 学 术 见 解 和 学 术 成 果 、 交 流 学 术 思想 的 网 络 空间 ， 
它 蕴 藏 着 极为 丰富 的 学 科 信 息 资 源 。 如 科学 网 (www. 
sciencenet.cn) 、 统 计 之 都 (cos.name) 、 小 木 虫 (emuch. 


m} 


义 挖 据 , 采用 关系 分 析 和 关联 数据 构建 途径 揭示 学 术 
资源 网 中 的 相似 文献 。 


2 相关 研究 进展 


关联 文献 发 现 主要 以 文献 之 间 的 相似 性 测度 为 基 
础 ， 研 究 方向 主要 包括 : 以 共 词 分 析 和 向 量 空间 模型 


net)、 中 国 万 维 网 联盟 (w3china.org) 等 。 这 些 学 科 信 息 


等 统计 计算 方法 为 基础 的 文档 相似 度 计算 方法 ; 以 知 


资源 在 学 术 交 流 中 产生 ,表现 出 很 强 的 时 效 性 、 简 洁 
性 和 非 系统 性 , 需要 系统 地 组 织 以 最 大 程度 地 发 挥 其 
学 术 促 进 功能 。 数 字 资源 聚合 通过 强化 语义 和 发 现 关 
联 构建 内 容 相互 关联 、 多 维度 、 多 层次 的 资源 体系 , 形 
成 集 概念 主题 、 学 科 内 容 和 科研 对 象 于 一 体 的 知识 网 
络 员 。 本 文采 取 数 字 资 源 聚 合 中 聚 类 的 知识 再 组 织 理 
念 , 在 目标 数字 资源 信息 类 别 、 体 系 结构 和 专业 词 表 
未 知 的 情况 下 ,针对 学 术 资源 网 文献 内 部 特征 进行 语 


a 


识 体系 语义 理解 为 基础 的 语义 相似 度 计算 方法 。 

以 统计 计算 为 基础 的 文档 相似 度 测 算 方 法 主要 是 
针对 构成 某 篇 文献 的 主要 词汇 在 其 他 文献 中 出 现 的 频 
度 进行 计算 , 具有 低 成 本 、 高 效率 的 优势 ， 突出 表现 在 
对 文档 集 容 量 要 求 不 高 但 测算 精确 度 较 高 时 , 不 需要 
领域 词 表 的 辅助 也 能 顺利 完成 测算 。Magerman 等 口 
使 用 结合 潜在 语义 分 析 与 向 量 空间 模型 的 文本 挖掘 技 
术 评 佑 专利 与 科技 出 版 物 之 间 的 相似 度 ， 并 通过 人 工 
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评定 验证 其 效果 。 和 了 晓 萍 等 所 提 出 基于 预 聚 类 的 潜在 
语义 文献 检索 算法 ,在 潜在 语义 分 析 方 法 的 基础 上 采 
H K-means(K 均值 ) 聚 类 算法 ,对 待 检 索 文档 集 进行 预 
限 类 寻找 出 各 聚 类 簇 的 中 心 点, 通过 计算 查询 问 量 与 
各 聚 类 簇 中 心 点 的 相似 度 进行 检索 。Wang 等 外 结合 语 
义 分 析 法 与 后 向 增殖 神经 网 络 对 文本 分 类 , 借助 潜在 
语义 分 析 的 统计 推断 能 力 形成 概念 向 量 空间 ， 从 而 发 
现 词 汇 间 的 重要 关联 并 降低 维度 。Olmos 等 采取 结 
合 语 义 描述 动态 模型 、 潜 在 语义 空间 降 维和 欧 氏 距离 
三 种 方法 的 人 工分 类 器 ， 以 增强 潜在 语义 分 析 方 法 的 
可 靠 性 。 

共 词 分 析 方 法 是 在 给 定 文献 集合 中 词 与 词 在 同一 
篇 文献 中 出 现 的 频次 的 情况 下 , 采用 一 定 的 统计 方法 
对 共 现 频次 进行 计算 , 得 到 词 与 词 之 间 的 关联 强度 ， 
从 而 揭示 信息 在 内 容 上 的 关联 和 四。 唐 果 媛 等 通过 分 析 
数据 集 、 主 题 演 化 阶段 划分 、 选 择 和 提取 共 词 分 析 对 
象 、 构 建 共 词 矩 阵 与 归 一 化 、 主 题 演 化 分 析 5 步 进 行 
学 科 主 题 演化 研究 分 析 , 并 对 每 个 步骤 中 研究 人 员 使 
用 的 策略 、 分 析 手 段 和 工具 进行 归纳 总 结 。 任 建华 等 中 
提出 一 种 利用 关联 规则 强化 的 文档 向 量 表示 方法 , 在 
词 条 同 现 模型 基础 上 ,对 文档 中 词 条 之 间 依 托 关联 关 
系 存 在 的 潜在 语义 进行 挖掘 , 在 得 到 的 文档 向 量 中 同 
时 考察 词 条 同 现 关 系 和 词 条 间 隐 含 关系 ,以 提高 聚 类 
的 准确 性 。 

领域 知识 为 基础 的 语义 相似 度 测算 方法 往往 使 用 
较 复 杂 的 算法 , 需要 借助 完善 的 领域 词 表 , 成 本 较 高 ， 
但 可 以 赋予 机 器 语义 理解 能 力 。 经 常 被 使 用 的 领域 词 
表 包 括 “ 词 网 (WordNet)” 和 “ 知 网 (HowNet)”"。 如 黄 贤 英 
等 外 提出 一 种 词 项 语义 维度 映射 方法 , 依据 词 频 和 
HowNet 词典 完成 词性 向 量 权 值 映射 , 将 短文 本 之 间 
相似 度 运算 转换 为 词性 向 量 之 间 相 似 度 运 算 。 徐 勇 等 [ 
研究 文献 之 间 的 相似 程度 度量 问题 , 结合 开放 目录 项 
目的 目录 系统 构建 文献 关键 词 的 泛 化 树 结构 ,将 关键 
词 或 其 父子 词语 进行 匹配 反映 两 篇 文献 在 研究 领域 视 
角 上 的 相似 性 , 加 入 共 被 引 因素 所 代表 的 间接 相似 性 ， 
构成 混合 相似 度 识 别 语义 相似 的 文献 。 如 匡 树 芳 等 中 
提出 基于 术语 间 本 体 关 联 度 的 文档 相关 度 计算 方法 ， 
利用 树 状 本 体 结 构 计算 术语 间 基 于 本 体 的 关联 关系 ， 
通过 术语 组 间 本 体 关 联 度 得 到 两 组 词语 的 本 体 关 联 关 
R, 结合 文档 标 引 词 权 重 计算 两 个 文档 的 相关 度 。 从 
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研究 文 


本 体 角 度 将 语义 信息 引入 向 量 空间 模型 ， 提 高 文档 相 
关 度 计算 的 准确 性 。 

综合 以 上 两 个 分 支 , 能 够 发 现 潜 在 语义 分 析 可 以 
从 词 条 、 语 句 到 篇 章 三 个 不 同 层 次 进行 关联 分 析 ， 有 
很 高 的 自由 度 ; 共 词 分 析 以 词 对 频次 计量 信息 关联 ; 
语义 关联 则 需要 借助 词 表 实 现 。 本 文采 用 灵活 高 效 的 
潜在 语义 分 析 与 拥有 关系 描述 优势 的 关联 数据 相 结 合 
的 方法 , 探讨 通过 统计 分 析 方 法 建立 关联 数据 ， 并 实 
现 相似 文献 发 现 的 可 行 性 和 有 效 性 。 


3 ”基于 关联 数据 的 学 术 资 源 网 相似 文献 

聚合 方法 

学 术 资 源 网 对 文献 的 整理 通常 以 所 发 布 的 文献 的 
关键 词 标注 为 基准 , 但 是 关键 词 选 择 的 标准 因 网 站 编 
辑 与 文献 作者 的 不 同 而 异 , 一 些 学 术 资 源 网 的 文献 包 
含 原文 链接 、 原 作者 、 编 辑 等 简单 的 元 数据 ， 而 部 分 
文献 则 并 不 提供 这 些 信息 , 在 文献 归 类 组 织 上 表现 出 
较 大 的 随意 性 。 因 此 本 文通 过 潜在 语义 分 析 与 向 量 空 
间 模 型 对 网 络 文档 的 内 容 进行 语义 相似 性 测算 , 将 语 
义 关联 信息 和 文档 元 数据 合并 整理 为 关联 数据 , 形成 
相似 文献 发 现 的 基础 。 
3.1 潜在 语义 分 析 与 向 量 空间 模型 

潜在 语义 分 析 (Latent Semantic Analysis，LSA) 是 
一 种 全 自动 提取 并 推断 语 篇 中 词汇 的 预期 语 用 关系 的 
数学 统计 学 技术 , 通过 统计 隐 含 在 文本 中 词语 的 上 下 
文 使 用 模式 , 提取 词汇 之 间 潜 在 的 语义 结构 站。 它 不 
使 用 词典 等 知识 库 工具 , 仅 以 原始 文本 按 语 法 分 解 为 
词 条 作为 输入 数据 。 首 先 需 要 将 文本 表示 成 每 一 行 是 
一 个 唯一 的 词汇 , 每 一 列 是 一 个 文档 的 和 矩阵。 根据 线 
性 代数 的 奇异 值 分解 (Singular Value Decomposition, 
SVD)JTiZ REI 4) Es h AIT YE S2 AB [MI — T9] fü XR IAE 
乘积 的 原理 ,可 以 得 到 词 条 和 矩阵、 由 奇异 值 构成 的 秩 
和 矩阵 和 降 维 后 的 词 条 文档 频率 矩阵。 将 经 奇异 值 分 解 
所 得 行 奇异 向 量 和 列 奇异 向 量 除 以 它们 的 维度 所 得 的 


截断 矩阵 就 构成 了 洪 在 语义 空间 (Latent Semantic 
yl, 


Space 

文档 相似 度 比 较 采 用 经 典 的 向 量 空间 模型 (Vector 
Space Model, VSM), 将 每 一 篇 文献 看 作 一 个 向 量 , 一 
篇 文献 和 另 一 篇 文献 的 差异 度 就 可 以 表示 成 这 两 个 向 
量 所 构成 的 角度 ,用 向 量 夹 角 的 余弦 表示 中 ,同时 , 为 


保证 文档 的 相似 关系 不 受 高 频 词 条 的 影响 , 采取 词汇 
频率 -逆向 文档 频率 进行 权重 修正 ， 获 得 文档 相似 度 
的 准确 结果 。 经 过 以 上 分 析 处 理 过 程 ， 从 而 获得 建立 
关联 数据 所 需 的 基础 数据 。 
3.2 ”关联 数据 技术 

关联 数据 是 一 组 最 佳 实践 的 集合 , CRH RDF 数 
据 模型 ,利用 URI( 统 一 资源 标识 符 ) 命 名 数据 实体 , 发 
布 和 部 署 实例 数据 和 类 数据 ,从 而 可 以 通过 HTTP B 
议 揭示 并 获取 这 些 数据 , 同时 强调 数据 的 相互 关联 、 
相互 联系 以 及 有 益 于 人 机 理解 的 语 境 信息 中。 作为 一 
种 本 体 描述 方法 ， 其 表述 范畴 包括 概念 、 概 念 层 次 、 
属性 、 属 性 值 类 型 、 关 系 、 关 系 定义 域 概念 集 以 及 关 
系 值 域 概念 集 ， 并 可 以 在 此 基础 上 添加 规则 或 公理 来 
表示 模式 层 更 复杂 的 约束 关系 54。 关 联 数据 实质 是 遵 
循 : RDF 文档 以 统一 资源 定位 符 (URD 为 名 称 ; URI 必 
须 符合 超 文本 传输 协议 (HTTP); URI 指向 的 信息 必须 
以 标准 格式 (RDF，SPARQL) 提 供 ; 发 布 信息 必须 包含 
URI 等 关联 数据 原则 中 7 的 RDF 文档 。 

关联 数据 是 构建 网 络 知 识 组 织 体系 的 重要 工具 ， 
它 的 对 象 标 识 与 访问 机 制 为 跨 区 域 信息 资源 聚合 和 信 
息 资 源 追 溯 创 造 了 良好 的 条 件 ,同时 也 为 各 类 对 象 实 
体 以 及 所 涉及 的 大 量 概 念 术语 提供 了 规范 控制 。 关 联 
数据 透 过 标准 化 的 命名 和 指向 ,严格 限定 了 数据 的 语 
XL, 也 关联 到 其 所 链接 的 大 量 相关 资源 实体 , 这 些 关 
联 数据 的 “属性 本身 也 是 资源 [5 。 关 联 数据 具有 领域 
无 关 、 机 器 可 理解 的 特性 ， 能 够 降低 数据 流动 和 转化 
过 程 经 过 人 机 交互 或 机 器 交互 所 产生 的 阻力 ， 能够 更 
好 地 携带 语义 数据 ,供用 户 访问 和 机 器 处 理 。 


4 基于 关联 数据 的 学 术 资源 网 相似 文献 
聚合 框架 与 功能 


学 术 资 源 网 根据 自身 学 科 有 选择 地 发 布 文献 。 受 
学 科 层 次 、 有 覆盖 范围 和 更 新 频率 所 限 ， 网 站 只 对 这 些 
文献 进行 简单 分 类 , 甚至 仪 统一 收藏 而 不 分 类 。 用 户 
在 使 用 过 程 中 只 能 靠 逐 个 浏览 来 掌握 自己 需要 的 文 
Wio ETIE, 如何 有 效 实 现 学 术 资 源 网 的 相似 文献 聚 
合 , 为 用 户 准确 地 展示 检索 的 相似 文档 集 就 变 得 十 分 
重要 。 
41 聚合 框架 

关联 数据 驱动 的 信息 资源 聚合 框架 主体 包括 三 层 
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结构 ， 如 图 1 所 示 : 
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生成 


图 1 基于 关联 数据 的 学 术 网 络 信息 相似 资源 

聚合 框架 

实现 数据 由 松散 的 网 络 信息 向 描述 知识 关联 的 关 
联 数据 的 转化 , 最 终 实 现 关 联 文 献 的 检索 和 推荐 : 

(1) 网 络 信息 提取 单元 。 实 现 学 术 资 源 网 内 部 不 
同类 型 、 不 同时 期 、 不 同形 式 文献 资源 的 提取 , 去除 
网 页 代码 等 无 关内 容 。 

(2) 信息 解析 与 文献 关联 计算 单元 。 对 学 术 资 源 
网 文献 中 的 元 数据 、 学 科 知 识 等 进一步 菜 取 ， 向 量 空 
间 化 , 计算 各 个 文档 之 间 的 相似 度 ， 围绕 每 篇 文档 建 
立 相 似 度 图 谱 , 为 关联 数据 生成 创造 条 件 。 

(3) 关联 数据 生成 与 检索 单元 。 以 网 络 信息 提取 
单元 获取 的 学 术 文 档 和 学 术 信息 解析 与 文献 关联 计量 
单元 取得 的 文档 相似 度 列表 为 基础 , 经 动态 文档 生成 
系统 生成 完整 的 学 科 网 络 信息 关联 数据 作为 检索 的 核 
心 资源 , 与 用 户 信息 检索 行为 无 颖 链接 ,提供 快捷 准 
确 的 关联 文献 检索 服务 ， 从 而 促进 学 术 资 源 网 络 中 知 
识 的 发 现 和 利用 。 

42 ”聚合 功能 

学 术 资源 网 相似 文献 聚合 是 通过 网 络 文献 采集 和 
预 处 理 、 文 献 相 似 度 计算 与 筛选 、 关 联 数据 生成 和 检 
索 三 个 功能 实现 的 。 

(1) 网 络 文献 采集 和 预 处 理 

列 藏 于 学 术 资 源 网 中 的 文献 大 多 内 在 网 页 文件 之 
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中 , 需要 经 过 采集 和 预 处 理 构 成 基础 语料库 以 备 进 一 
步 的 分 析 。 其 过 程 如 图 2 所 示 : 


preg 


图 2 网 络 文献 采集 和 预 处 理 过 程 


学 术 资 源 网 文献 采集 包括 网 页 读 取 与 网 页 结构 解 
析 ， 网 页 读 取 实 质 就 是 通过 爬虫 、 离 线 浏 览 需 或 文档 
传输 (FTP) 工 具 将 目标 网 页 从 网 络 保存 到 本 地 的 过 程 。 
为 了 在 浏览 器 中 按照 预 设 的 样式 显示 文档 , 文档 内 容 
和 格式 都 通过 一 整套 标记 标签 描述 , 每 一 组 标签 构成 
一 个 节点 。 提 取 网 络 文档 内 容 时 , 需要 首先 对 页 面 框 
架 进行 解析 ， 从 而 准确 选中 包含 文档 内 容 的 节点 。 预 
处 理 则 是 对 采集 到 的 网 页 节点 内 容 进 行 去 除 元 余 的 页 
面 代码 、 格 式 符 号 等 清洗 工作 ,随后 将 整理 所 得 的 内 
容 按 文档 为 单位 分 别 保存 , 供 分 析 使 用 。 

(2) 文献 相似 度 计算 与 筛选 

学 术 资源 网 相似 文献 发 现 依赖 于 文档 之 间 相 似 度 
的 计算 和 筛选 。 本 文采 取 潜 在 语义 分 析 对 文献 资源 之 
间 的 语义 关联 进行 计算 , 在 网 络 信息 提取 单元 的 文档 
语料库 基础 上 , 构建 潜在 语义 分 析 向 量 空间 , 计算 总 
体 文献 相似 度 ; 通过 文档 集 层次 聚 类 的 中 心 趋势 度 确 
定 过 滤 文 献 相似 度 的 阔 值 ， 从 而 过 滤 掉 相似 度 较 低 的 
文献 。 形 成 新 的 相似 文献 列表 后 , 将 其 写 人 关联 数据 
中 , 实现 基于 关联 数据 的 相似 文献 资源 语义 聚合 。 文 
献 相 似 度 计 算 与 筛选 流程 如 图 3 所 示 : 


—| Ex 


图 3 文献 相似 度 计 算 与 筛选 流程 


文献 相似 度 计算 与 筛选 分 为 两 个 阶段 : 

人 从 文档 语料库 构建 潜在 语义 分 析 向 量 空间 ， 其 主要 
功能 是 对 由 学 术 资 源 网 中 提取 的 学 术 文 献 的 原始 内 容 进行 
分 词 和 去 除 停 用 词 ， 建 立 文 档 词 条 短 阵 并 对 词 条 频 度 和 文 
档 的 关系 进行 权重 计算 。 本 文采 用 词汇 频率 -逆向 文档 频率 
(TF-IDF) 计 算 文档 相似 度 权 重 。 词 汇 频 率 - 逆 向 文档 频率 包 
含 两 部 分 功能 : 词汇 频率 (Term Frequency, TF) 指 词 条 在 茶 篇 
文档 中 的 出 现 次 数 ， 为 防止 某 一 关键 词 条 在 不 同文 档 中 出 
现 频 率 差 异 导 致 权重 波动 较 大 ,本文 对 词 条 对 于 单个 文档 
的 权重 取 对 数 , 将 其 缩小 至 0 到 1 的 区 间 内 ; 同时 因 文 档 词 
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条 和 给 阵 为 稀疏 给 阵 ， 因 此 在 每 个 词汇 频率 取 对 数 前 加 1， 即 
TF(t,d)=log(1+fi.a), 防止 最 终 的 TF-IDF 值 过 小 造成 比较 的 不 
便 ; 逆向 文档 频率 (Inverse Document Frequency, IDF) 是 文档 
集合 中 的 文档 总 数 和 出 现 当 前 词 项 的 文本 数 的 比值 ， 即 
IDF(LD)=log(YV{dED,tEd})， 它 表示 词 项 在 文档 集合 中 的 
普遍 性 。 在 判断 文档 相似 性 方面 ， 如 果 一 个 词 出 现在 文档 
集 内 越 多 的 文献 中 ， 则 它 对 文档 的 区 分 度 越 低 ， 重 要 程度 
自然 下 降 。TF-IDF 就 是 TF fe IDF hh RA, PP TFIDF(t,d,D)= 
TF(t,d)xIDF(t,D)。 文档 词 条 矩阵 建立 在 这 些 调 整 每 篇 文档 与 
文档 中 的 词汇 关联 程度 权重 之 上 ,将 所 有 待 分 析 的 n 个 文档 
顺 次 排列 ,按照 全 部 文献 中 包含 的 m 个 词 条 出 现 频率 组 成 
NEE, 就 构成 nxm X HS 4 4EME M. 

@) 高 相似 度 文 档 的 提取 ， 它 依赖 于 整体 相似 度 计 算 和 
相似 文献 过 滤 。 本 文采 取 潜 在 语义 分 析 法 对 处 理 后 的 学 术 资 
源 网 文档 的 语义 结构 进行 计算 , 将 文档 词 条 和 矩阵 M 经 奇异 
Jh EGER EPA. qJRAEAE FE S SCARPE, Rp: 
M-UXV!, FAES X Hi4p Ez da EVT 就 是 降 维 后 的 
文档 空间 向 量 。 文 档 间 的 相似 度 可 以 用 降 维 后 的 两 个 文档 在 
向 量 空间 中 的 余弦 值 计算 , 该 值 越 大 ， 对 应 的 两 个 文档 相似 
度 越 高 。 在 得 到 整体 文档 相似 度 之 后 , 采取 以 文献 层次 聚 类 
为 基础 的 相似 度 阅 值 选取 方法 。 聚 类 分 析 简 称 聚 类 ,是 把 数 
据 对 象 划分 成 子 集 的 过 程 。 每 个 子 集 是 一 个 答 ， 答 中 的 对 象 
彼此 相似 ， 而 不 同 绪 的 对 象 不 相似 。 由 于 它 能 够 根据 数据 的 相 
似 性 将 大 型 数据 集合 划分 成 组 ， 因 此 又 称 为 数据 分 割 H9。 层 
次 聚 类 将 初始 种 群 的 每 个 样本 个 体 都 单独 作为 一 类 ,使 用 
欧 几 里 得 距离 评价 各 个 类 别 之 间 的 相似 程度 ， 并 将 最 接近 
的 类 别 进行 合并 ,直到 满足 聚 类 需求 P0l。 通 过 对 文档 集 进行 
层次 聚 类 能 够 获得 最 大 类 狭 容 纳 的 文献 数量 ， 以 此 为 依据 
对 各 篇 文献 的 相似 文献 按照 相似 度 从 高 到 低 的 次 序 进 行 截 
取 ; 将 截取 所 得 的 相似 度 值 集合 求 中 位 数 即 可 进一步 排除 
相似 度 较 低 的 文献 ， 得 到 合理 的 相似 度 阅 值 。 

经 过 上 述 两 个 阶段 ， 本 文 排除 原始 相似 度 和 矩阵 中 
所 有 低 相 似 度 文献 ,得 出 记录 不 同类 型 、 不 同 格式 、 
不 同 著录 规则 的 网 络 文献 间 的 语义 相似 程度 的 文档 相 
似 度 和 矩阵 。 

(3) 关联 数据 生成 和 检索 

关联 数据 生成 和 检索 模块 将 经 过 相似 度 过 滤 后 的 
相似 文献 列表 以 动态 文档 技术 写 入 关联 数据 内 。 该 关 
联 数据 不 必 一 次 性 容纳 学 术 资 源 网 中 的 所 有 文献 ， 而 
是 可 以 实时 增补 新 文献 信息 。 针 对 某 种 特定 类 型 的 文 
献 资 源 ， 其 表现 的 特有 语义 和 语义 关联 可 以 动态 地 加 
人 关联 数据 中 ， 从 而 对 核心 元 数据 本 体 进行 定制 化 扩 
展 , 生成 针对 某 一 学 科 门 类 的 学 科 关 联 数据 。 


4.3 ”学 术 资 源 网 相似 资源 表示 

在 关联 数据 中 , 学 术 资 源 之 间 的 关联 采用 相似 文 
献 列表 的 形式 展现 是 十 分 直观 且 方 便 检索 的 方法 ,笔者 
将 某 篇 文献 的 相似 文献 作为 关联 数据 中 该 文献 属性 的 


一 个 子 类 ,以 等 同 关系 (similarAs) 定 义 相 似 文献 资源 ， 
根据 文献 相似 度 矩 阵 生 成 对 应 各 个 文献 资源 的 相似 文 
献 列表 。 以 博文 《从 统计 学 角度 来 看 深度 学 习 (2): 自动 
编码 器 和 自由 能 》 为 例 , 其 相似 文献 列表 如 图 4 所 示 : 


<dcam:similarAs rdf:resource-'http://cos.name/2015/06/a-statistical-view-of-deep-learning-iii-memory-and-kernels/7 
<dcam:similarAs rdf:resource-'http://cos.name/2015/05/the-data-wisdom-for-data-science/' 
<dcam:similarAs rdf:resource-'http://cos.name/2014/12/introduction-of-deep-learning/- 
<dcam:similarAs rdf:resource='http://cos.name/2015/01/talking-about-data-scientist/> 
<dcam:similarAs rdf:resource-'http://cos.name/2015/02/the-application-of-statistics-in-love/'7 
<dcam:similarAs rdf:resource='http://cos.name/2013/1 1/teaching-le-to-a-child/'> 

<dcam:similerAs rdf:resource='http://cos.name/2015/01/the-material-of-data-science-for-the-vacation/'> 
<dcam:similerAs rdf:resource='http://cos.name/2014/01/svm-series-maximum-margin-classifier/'> 
<dcam:similerAs rdf:resource='http://cos.name/2015/03/using-r-to-search-for-your-partner/'> 
<dcam:similerAs rdf:resource='http://cos.name/2014/03/svm-series-5-support-vector/'> 
<dcam:similerAs rdf:resource='http://cos.name/2014/12/the-story-about-measure-theory/> 
<dcam:similerAs rdf:resource='http://cos.name/2014/02/svm-series-3-kernel/> 

<dcam:similerAs rdf:resource='http://cos.name/2013/10/simply-statistics-of-gmm/'> 

<dcam:similerAs rdf:resource-'http://cos.name/2015/04/interview-of-chutingjin/ 

<dcam:similerAs rdf:resource='http://cos.name/2012/02/what-is-the-stat-dept-25-years-from-now/'> 
<dcam:similerAs rdf:resource='http://cos.name/2013/08/causality6-instrumental-variable/> 
<dcam:similerAs rdf:resource-'http://cos.name/2014/05/svm-series-add-2-kernel-ii/7 

<dcam:similerAs rdf:resource='http://cos.name/2014/03/svm-series-add-1-duality/'> 

<dcam:similerAs rdf:resource='http://cos.name/2013/05/relationship-big-data-statistics/'> 
<dcam:similerAs rdf:resource='http://cos.name/2014/01/svm-series-2-support-vector/> 


图 4 关联 数据 中 的 相似 文献 列表 样 例 


以 关联 数据 的 形式 发 布 学 术 资 源 网 信息 资源 语义 
关联 列表 , 可 以 直观 地 展示 全 学 科 文 献 关联 图 谱 ， 从 
而 使 整个 学 科 的 学 术 文 献 都 可 以 由 关联 数据 作为 起 始 
节点 轻松 访问 , 并 可 以 经 由 统一 资源 定位 符 访问 外 部 
相关 资源 ,自由 地 在 不 同 数据 集中 进行 切换 。 由 于 关 
联 文献 已 经 按 关联 度 高 低 排序 ， 因 而 能 够 通过 简单 的 
查询 有 效 地 揭示 资源 间 的 相互 关系 。 此 外 , 还 能 够 实 
现 语义 检索 等 语义 互 操作 。 


S 实证 分 析 


以 真实 的 学 术 资 源 网 数据 为 例 , 使 用 本 文 提 出 的 
基于 本 体 与 关联 数据 的 学 术 资 源 网 络 相 似 文献 聚合 框 
架 为 基础 ， 以 R 语言 为 工具 构建 一 个 演示 性 的 学 术 
资源 网 相似 文献 聚合 系统 ,实现 学 术 资 源 网 相似 文献 
的 推荐 。 

5.] 数据 与 预 处 理 

选取 学 术 资 源 网 “统计 之 都 "发 布 的 编辑 推荐 文献 
共 78 篇 。 全 程 采 用 XML 程 辑 包 对 “推荐 文献 "栏目 
页 面 中 所 含 文献 链接 进行 提取 ; 通过 这 些 链 接 预 读 取 
推荐 文献 全 文 页 面 ; 将 包含 文献 内 容 的 节点 提取 出 来 ， 
每 一 篇 文献 单独 组 织 成 一 个 文档 , 并 借用 “统计 之 都 ” 


CDhttp://ictclas.nlpir.org. 


网 站 的 链接 特征 ， 以 该 文献 统一 资源 定位 符 的 最 后 一 
节 对 其 命名 。 使 用 基于 隐 马 尔 科 夫 模型 的 中 国 科 学 院 
计算 技术 研究 所 的 ICTCLAS 分 词 软件 的 Rwordseg 
程 辑 包 "统一 读 取 这 些 待 分 析 的 文档 对 象 并 实现 分 词 
和 去 除 停 用 词 ， 以 降低 无 实际 意义 的 词 造成 的 系统 资 
源 消耗 。 
5.0 ”相似 文档 聚 类 与 发 现 

本 文 调用 lsa 程 辑 包 1 将 每 一 个 按 词 条 分 解 
的 文档 作为 一 个 单独 的 向 量 读 入 , 形成 原始 语 料 
库 。 由 于 中 西 文 差异 , 笔者 将 最 短 词 长 调整 为 1， 以 
便 在 尽 可 能 保留 中 西 文 词 条 的 前 提 下 对 语料库 进行 
清洗 。 将 清洗 后 的 语料库 转换 为 文本 矩阵 ， 此 时 该 
文本 矩阵 即 是 由 分 解 的 词 条 组 成 的 文档 向 量 集 。 在 计 
算 词 频 时 , 采取 词汇 频率 - 道 向 文档 频率 (TF-IDF) 作 
为 平衡 高 频 词 权 重 的 方法 建立 文档 词 条 和 矩 阵 ， 并 对 
文档 词 条 和 矩阵 进行 奇异 值 分 解 和 可 视 化 , 结果 如 图 5 
所 示 。 
图 5 即 经 过 奇异 值 分 解 降 维 后 的 文档 词 条 符 阵 
它 清 晰 地 展示 了 学 术 资 源 网 “统计 之 都 "中 发 布 的 推荐 
文献 所 构成 的 各 个 文档 向 量 的 关联 情况 。 图 中 左 侧 
中 的 点 簇 展现 了 “统计 之 都 "推荐 文献 的 语义 相似 
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侧 散 布 着 8 个 离 群 点 ,表示 这 8 篇 文献 与 其 他 文献 的 关 
联 并 不 紧密 。 这 一 现象 充分 体现 了 学 术 资 源 网 主推 的 
文献 具有 和 较 高 的 学 科 主 题 一 致 性 , 但 是 也 可 能 存在 与 
其 他 文献 关联 较 弱 的 灰色 文献 。 在 此 基础 上 ， 对 降 维 
后 的 文档 词 条 和 矩阵 求 余 弦 相 似 度 ， 即 可 得 出 整体 文档 
相似 关系 矩阵 。 

为 准确 检索 出 最 相似 的 文档 , 使 用 基于 层次 聚 类 的 
相似 度 闷 值 求解 方法 。 调 用 RR 平台 的 proxy 程 辑 包 卢 ] 分 
两 步 实现 层次 聚 类 : 求 得 文档 间 的 欧 氏 距离 ; 采用 离 
差 平 方 和 进行 层次 聚 类 。 离 差 平 方 和 法 对 文档 聚 类 的 
判断 基于 方差 分 析 思 想 ， 如 果 分 类 合理 , 则 同类 文档 
之 间 的 离 差 平方 和 应 当 较 小 , 不 同类 间 的 离 差 平 方 和 
应 当 较 大 。 经 过 计算 与 可 视 化 , 得 到 “统计 之 都 ”推荐 


度 关系 ， 且 大 多 数 文献 都 聚集 在 左 侧 区 域内 ， 仅 在 右 


0.14 


文档 层次 聚 类 ， 如 图 6 所 示 : 
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图 6 


6 显示 了 所 有 推荐 文档 的 聚 类 情况 ， 当 高 度 选 
择 0.04 时 ， 层 次 聚 类 获得 的 类 簇 包含 4 至 29 篇 文献 不 
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“统计 之 都 "文档 的 层次 聚 类 分 析 


次 筛选 , 保留 所 有 高 于 阐 值 的 相似 度 值 。 若 某 篇 文档 
与 其 他 文档 相似 度 均 低 于 阔 值 , 则 仅 选 取 与 其 相似 度 


等 。 为 完整 保留 高 相似 度 文献 关联 ,以 最 大 类 艇 包含 
的 文档 数 作为 提取 相似 文档 的 初始 值 ， 再 分 别 从 29 个 
文档 中 截取 高 相似 度 的 数据 , 将 这 些 符合 条 件 的 相似 
度数 据 汇 总 并 求 取 中 位 数 ， 得 到 相似 度 阔 值 0.6321. 
以 此 阔 值 为 基准 ， 对 文档 相似 度 矩 阵 中 的 数据 进行 再 
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最 高 的 一 篇 文档 作为 其 相似 文献 。 在 获得 文献 之 间 的 
关联 度 基础 上 ,对 每 一 篇 文献 按照 相关 度 由 高 到 低 的 
次 序 生成 全 文档 集 的 相关 文献 列表 。 

在 相关 文献 列表 生成 后 , 利用 动态 文档 转换 工具 
rmarkdownt 将 文档 元 数据 和 相关 文档 列表 机 入 
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RDF/XML 编码 段 内 形成 完整 的 关联 数据 源码 动态 文 
档 , 经 过 简单 的 格式 转换 即 可 获得 记录 相似 文档 的 关 
联 数据 。 借 助 社 会 网 络 分 析 与 可 视 化 工具 Graph”, 
笔者 对 记录 在 关联 数据 中 的 文档 相似 关系 加 以 可 视 化 
展示 ,如 图 7 所 示 : 


图 7 关联 数据 中 记录 的 “统计 之 都 "推荐 文档 的 
相似 关系 
图 7 中 节点 的 大 小 与 该 文档 和 其 他 文档 的 相似 度 
HX, 相似 文档 越 多 节点 越 大 ,网 络 图 边缘 散落 的 单 
连 线 小 节点 就 是 那些 与 其 他 文档 相似 度 都 较 低 (不 及 
闵 值 ) 的 少量 文献 。 本 文 使 用 的 相似 度 处 理 方法 最 大 限 
度 地 保留 了 这 些 文档 与 其 他 文档 的 相似 关系 , 使 之 在 
相似 文献 检索 过 程 中 能 够 发 现 。 只 需 在 网 络 上 发 布 关 
联 数据 , 运用 “跟着 感觉 走 ” 原 则 (Follow Your Nose 
Principle) 只 要 确定 一 个 指向 某 些 RDF 的 URI, 就 可 以 
引用 这 个 URI 加 载 相 应 文档 ,迅速 获得 “统计 之 都 ” 
中 某 篇 文献 的 相关 文献 检索 结果 。 


6 结 语 


关联 数据 实现 相似 文献 推荐 具有 和 较 高 的 灵活 性 : 
关联 数据 是 文档 分 析 过 程 的 成 果 , 用 户 检索 针对 关联 
数据 进行 ， 只 需 一 次 简单 检索 或 推理 即 可 得 出 结 
无 须 将 查询 与 每 篇 文档 依次 比 对 ， 提 高 检索 效率 ; 相 
关 检 索 结 果 直 接 由 关联 数据 给 出 , 并 以 URI 形式 向 用 
户 提供 , 直接 点 击 即 可 获得 , 符合 广大 用 户 的 使 用 习 
惯 ， 简 单方 便 。 由 于 分 析 过 程 的 独立 性 , 在 文档 发 生变 
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化 时 不 必 中 断 服务 。 由 系统 在 后 台 分 析 完 成 并 生成 新 
的 关联 数据 后 蔡 换 原 有 旧 关 联 数据 ,可 以 完全 不 干扰 
用 户 的 使 用 。 

本 文采 用 潜在 语义 分 析 方 法 对 网 络 文档 包含 的 语 
义 进 行 计算 ， 以 得 到 的 相似 度 和 矩阵 作 为 生成 关联 数据 
的 基础 ， 展 示 此 类 方法 在 相似 文献 发 现 中 的 有 效 性 。 
文章 对 关联 数据 的 构建 比较 简单 ,主要 表征 了 文档 间 
的 相似 性 ， 以 及 利用 相似 关联 关系 对 新 的 相似 文献 进 
行 发 现 。 并 未 对 文档 所 涉及 的 学 科 知 识 进 行 归 类 和 关 
联 规则 发 据 。 以 客观 知识 体系 和 知识 结构 为 基础 的 相 
似 文 献 发 现 应 更 能 体现 学 科 知 识 发 展 脉络 和 相关 文献 
的 关联 程度 。 后 续 研 究 中 笔者 将 引入 机 器 学 习 等 方法 
对 学 术 资源 网 的 文献 内 容 和 知识 进行 深度 聚合 。 
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Using Linked Data to Retrieve Similar Documents from the Academic 
Resource Websites 


Zhao Yiping Bi Qiang 
(School of Management, Jilin University, Changchun 130022, China) 

Abstract: [Objective] This paper studied the linked data from the Web, which is machine-readable, semantically 
meaningful and relationally descriptive. We examined these data’s effectiveness to improve the information 
organization of the academic resource websites (ARWs), with the purpose of retrieving more similar documents. 
[Methods] We first calculated the similarity of documents published in the ARWs with the help of the Latent Semantic 
Analysis (LSA) method. Then, chose documents with high similarities by the Hierarchical Cluster method, and created 
a document relation matrix. Finally, we used the dynamic document technology to generate a linked data index to 
search the ARWs. [Results] We built a preliminary ARWSs linked data index, which helped us find similar documents 
more effectively from the ARWSs. [Limitations] We investigated the similar documents retrieval technology from the 
perspective of statistical analysis. Therefore, further research is needed to locate similar documents from various subject 
areas with the support of deep learning technology. [Conclusions] We computed documents’ similarity using LSA 
method to discover related documents of specific articles. The linked data could help us find more similar documents, 
while reducing the waiting time for similarity calculation. 

Keywords: Linked data Latent Semantic Analysis(LSA) | Academic Resource Websites(ARWs) Similarity 
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